FILTER MODE ACTIVE

#эффективность обучения

Найдено записей: 3

#эффективность обучения30.08.2025

rStar2-Agent: как 14B модель с агентным RL обходит более крупные модели в математике

'Модель rStar2-Agent использует исполнение Python-кода в цикле рассуждений, что позволяет 14-миллиардной модели обойти более крупные системы на математических бенчмарках.'

#эффективность обучения09.06.2025

Отбор токенов с высокой энтропией в RLVR повышает точность и снижает затраты на обучение LLM

‘Селективное обучение на токенах с высокой энтропией улучшает результаты рассуждений LLM и снижает вычислительные затраты, устанавливая новые рекорды на тестах AIME.’

#эффективность обучения23.04.2025

Оптимизатор Muon от Microsoft значительно ускоряет гроккинг в трансформерах

Исследователи Microsoft показали, что оптимизатор Muon существенно ускоряет гроккинг в моделях трансформеров, обеспечивая более быстрый переход от запоминания к обобщению по сравнению с AdamW.